FILTER MODE ACTIVE

#supervised fine-tuning

Найдено записей: 4

#supervised fine-tuning02.10.2025

Apriel-1.5-15B-Thinker: мультиформатный модельный разум на одном GPU

'Apriel-1.5-15B-Thinker — открытая 15-миллиардная мультиформатная модель, достигающая AAI 52 и помещающаяся на одном GPU, предлагая воспроизводимый рецепт обучения и конкурентные показатели на ключевых бенчмарках.'

#supervised fine-tuning08.09.2025

Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT

'MIT доказали, что on-policy обучение с подкреплением сохраняет ранее приобретённые способности лучше, чем супервизированное дообучение, за счёт минимизации прямого KL-расхождения между базовой и адаптированной моделью.'

#supervised fine-tuning24.08.2025

Prefix-RFT: направление LLM с частичными демонстрациями для объединения SFT и RFT

Prefix-RFT объединяет SFT и RFT через использование частичных демонстраций, направляя исследование и улучшая стабильность и качество на математических бенчмарках по сравнению с отдельными и гибридными подходами.

#supervised fine-tuning14.06.2025

OpenThoughts: Масштабируемый пайплайн для создания данных SFT в моделях рассуждений

OpenThoughts представляет масштабируемый пайплайн для создания данных SFT, значительно повышающий качество моделей рассуждений и достигающий передовых результатов в математике, программировании и науке.